智能论文笔记

Extraction of Vascular Wall in Carotid Ultrasound via a Novel Boundary-Delineation Network

Qinghua Huang , Lizhi Jia , Guanqing Ren , Xiaoyi Wang , Chunying Liu

分类：计算机视觉 | 机器学习

2022-07-28

超声成像在诊断血管病变中起重要作用。血管壁的准确分割对于预防，诊断和治疗血管疾病很重要。但是，现有方法的血管壁边界的定位不准确。分割误差发生在不连续的血管壁边界和黑暗边界中。为了克服这些问题，我们提出了一个新的边界限制网络（BDNET）。我们使用边界细化模块重新限制血管壁的边界以获得正确的边界位置。我们设计了特征提取模块来提取和融合多尺度特征和不同的接受场功能，以解决黑暗边界和不连续边界的问题。我们使用新的损失函数来优化模型。级别不平衡对模型优化的干扰可阻止获得更细致，更光滑的边界。最后，为了促进临床应用，我们将模型设计为轻量级。实验结果表明，与数据集的现有模型相比，我们的模型可实现最佳的分割结果，并显着降低记忆消耗。

translated by 谷歌翻译

Deep Reinforcement Learning-Assisted Federated Learning for Robust Short-term Utility Demand Forecasting in Electricity Wholesale Markets

Chenghao Huang , Weilong Chen , Xiaoyi Wang , Feng Hong , Shunji Yang , Yuxi Chen , Shengrong Bu , Changkun Jiang , Yingjie Zhou , Yanru Zhang

分类：机器学习

2022-06-23

短期负载预测（STLF）在电力交易市场的运营中起着重要作用。考虑到对数据隐私的日益关注，在最近的研究中，越来越多地采用了联合学习（FL）来培训公用事业公司（UCS）的STLF模型。令人鼓舞的是，在批发市场中，由于发电厂（PPS）直接访问UCS数据并不现实，因此FL绝对是可行的解决方案，可以为PPS获得准确的STLF模型。但是，由于FL的分布性质和UC之间的激烈竞争，缺陷越来越多，导致STLF模型的性能差，表明仅采用FL是不够的。在本文中，我们提出了一种DRL辅助方法，缺陷感知的联合软性参与者 - 批评者（DearFSAC），以稳健地训练PPS的准确的STLF模型，以预测精确的短期公用事业需求。首先。我们仅使用历史负载数据和时间数据设计了基于长期短期内存（LSTM）的STLF模型。此外，考虑到缺陷发生的不确定性，采用了深入的增强学习（DRL）算法来通过减轻缺陷引起的模型退化来协助FL。此外，为了更快的FL训练融合，自动编码器设计用于缩小尺寸和上载模型的质量评估。在模拟中，我们在2019年验证了赫尔辛基UCS的真实数据的方法。结果表明，无论是否发生缺陷，DearFSAC都比所有其他方法都胜过所有其他方法。

translated by 谷歌翻译

Cross-Subject Domain Adaptation for Classifying Working Memory Load with Multi-Frame EEG Images

Junfu Chen , Xiaoyi Jiang , Yang Chen , Bi Wang

分类：机器学习 | 计算机视觉

2021-06-12

工作记忆（WM）表示在脑海中存储的信息，是人类认知领域的一个基本研究主题。可以监测大脑的电活动的脑电图（EEG）已被广泛用于测量WM的水平。但是，关键的挑战之一是个体差异可能会导致无效的结果，尤其是当既定模型符合陌生主题时。在这项工作中，我们提出了一个具有空间注意力（CS-DASA）的跨主题深层适应模型，以概括跨科目的工作负载分类。首先，我们将EEG时间序列转换为包含空间，光谱和时间信息的多帧EEG图像。首先，CS-DASA中的主题共享模块从源和目标主题中接收多帧的EEG图像数据，并学习了共同的特征表示。然后，在特定于主题的模块中，实现了最大平均差异，以测量重现的内核希尔伯特空间中的域分布差异，这可以为域适应增加有效的罚款损失。此外，采用主题对象的空间注意机制专注于目标图像数据的判别空间特征。在包含13个受试者的公共WM EEG数据集上进行的实验表明，所提出的模型能够达到比现有最新方法更好的性能。

translated by 谷歌翻译

CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet

Xiaoyi Dong , Jianmin Bao , Ting Zhang , Dongdong Chen , Shuyang Gu , Weiming Zhang , Lu Yuan , Dong Chen , Fang Wen , Nenghai Yu

分类：计算机视觉 | 机器学习

2022-12-12

Recent studies have shown that CLIP has achieved remarkable success in performing zero-shot inference while its fine-tuning performance is not satisfactory. In this paper, we identify that fine-tuning performance is significantly impacted by hyper-parameter choices. We examine various key hyper-parameters and empirically evaluate their impact in fine-tuning CLIP for classification tasks through a comprehensive study. We find that the fine-tuning performance of CLIP is substantially underestimated. Equipped with hyper-parameter refinement, we demonstrate CLIP itself is better or at least competitive in fine-tuning compared with large-scale supervised pre-training approaches or latest works that use CLIP as prediction targets in Masked Image Modeling. Specifically, CLIP ViT-Base/16 and CLIP ViT-Large/14 can achieve 85.7%,88.0% finetuning Top-1 accuracy on the ImageNet-1K dataset . These observations challenge the conventional conclusion that CLIP is not suitable for fine-tuning, and motivate us to rethink recently proposed improvements based on CLIP. We will release our code publicly at \url{https://github.com/LightDXY/FT-CLIP}.

translated by 谷歌翻译

Dominance as an Indicator of Rapport and Learning in Human-Agent Communication

Amanda Buddemeyer , Xiaoyi Tian , Erin Walker

分类：机器人

2022-12-05

Power dynamics in human-human communication can impact rapport-building and learning gains, but little is known about how power impacts human-agent communication. In this paper, we examine dominance behavior in utterances between middle-school students and a teachable robot as they work through math problems, as coded by Rogers and Farace's Relational Communication Control Coding Scheme (RCCCS). We hypothesize that relatively dominant students will show increased learning gains, as will students with greater dominance agreement with the robot. We also hypothesize that gender could be an indicator of difference in dominance behavior. We present a preliminary analysis of dominance characteristics in some of the transactions between robot and student. Ultimately, we hope to determine if manipulating the dominance behavior of a learning robot could support learning.

translated by 谷歌翻译

From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera Fusion

Rui Wan , Shuangjie Xu , Wei Wu , Xiaoyi Zou , Tongyi Cao

分类：计算机视觉

2022-09-25

激光镜头和相机是两个用于自动驾驶中3D感知的互补传感器。激光点云具有准确的空间和几何信息，而RGB图像为上下文推理提供了纹理和颜色数据。为了共同利用激光雷达和相机，现有的融合方法倾向于基于校准，即一对一的映射，将每个3D点与一个投影图像像素对齐。但是，这些方法的性能高度依赖于校准质量，这对传感器的时间和空间同步敏感。因此，我们提出了一个动态的交叉注意（DCA）模块，具有新型的一对一的交叉模式映射，该模块从初始投影对邻域的最初投影中学习了多个偏移，从而发展了对校准误差的耐受性。此外，提出了A \ textIt {动态查询增强}来感知与模型无关的校准，从而进一步增强了DCA对初始未对准的耐受性。名为“动态跨注意网络”（DCAN）的整个融合体系结构利用了多级图像特征，并适应了点云的多个表示，这使DCA可以用作插件融合模块。对Nuscenes和Kitti的广泛实验证明了DCA的有效性。拟议的DCAN在Nuscenes检测挑战上优于最先进的方法。

translated by 谷歌翻译

Kernel-Based Generalized Median Computation for Consensus Learning

Andreas Nienkötter , Xiaoyi Jiang

分类：计算机视觉

2022-09-21

从一组给定对象中计算共识对象是机器学习和模式识别的核心问题。一种流行的方法是使用广义中位数将其作为优化问题。先前的方法（例如原型和距离嵌入方法）将对象转换为矢量空间，解决该空间中的广义中值问题，并反相转换回原始空间。这两种方法已成功地应用于广泛的对象域，其中广义的中值问题具有固有的高计算复杂性（通常为$ \ Mathcal {np} $ - 硬），因此需要近似解决方案。以前，在计算中使用了显式嵌入方法，这通常不反映对象之间的空间关系。在这项工作中，我们介绍了一个基于内核的广义中间框架，该框架适用于积极的确定和无限核。该框架计算对象与其在内核空间中的广义中位数之间的关系，而无需显式嵌入。我们表明，与使用易于计算的内核相比，对象之间的空间关系比在显式矢量空间中更准确地表示，并在三个不同域的数据集上展示了广义中值计算的出色性能。我们的工作产生的软件工具箱可公开使用，以鼓励其他研究人员探索广义的中位数计算和应用。

translated by 谷歌翻译

PointCAT: Contrastive Adversarial Training for Robust Point Cloud Recognition

Qidong Huang , Xiaoyi Dong , Dongdong Chen , Hang Zhou , Weiming Zhang , Kui Zhang , Gang Hua , Nenghai Yu

分类：计算机视觉

2022-09-16

尽管在各种应用中取得了突出的性能，但点云识别模型经常遭受自然腐败和对抗性扰动的困扰。在本文中，我们深入研究了点云识别模型的一般鲁棒性，并提出了点云对比对抗训练（PointCat）。 PointCat的主要直觉是鼓励目标识别模型缩小清洁点云和损坏点云之间的决策差距。具体而言，我们利用有监督的对比损失来促进识别模型提取的超晶体特征的对齐和均匀性，并设计一对带有动态原型指南的集中式损失，以避免这些特征与其属于其属于其归属类别群的偏离。为了提供更具挑战性的损坏点云，我们对噪声生成器以及从头开始的识别模型进行了对手训练，而不是将基于梯度的攻击用作内部循环，例如以前的对手训练方法。全面的实验表明，在包括各种损坏的情况下，所提出的PointCat优于基线方法，并显着提高不同点云识别模型的稳健性，包括各向同性点噪声，LIDAR模拟的噪声，随机点掉落和对抗性扰动。

translated by 谷歌翻译

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

Xiaoyi Dong , Yinglin Zheng , Jianmin Bao , Ting Zhang , Dongdong Chen , Hao Yang , Ming Zeng , Weiming Zhang , Lu Yuan , Dong Chen

分类：计算机视觉

2022-08-25

本文提出了一个简单而有效的框架蒙版，该框架将新提出的掩盖自distillation纳入对比的语言图像预处理中。掩盖自distillation的核心思想是将表示从完整的图像提取到蒙版图像预测的表示形式。这种合并享有两个重要的好处。首先，掩盖的自我验证目标是本地贴片表示学习，这与视觉对比度的互补，专注于与文本相关的表示。二，掩盖的自我验证也与视觉语言对比符合训练目标的视野对比是一致的。视觉编码器用于功能对齐，因此能够学习本地语义从该语言中获得间接监督。我们提供了专门设计的实验，并进行了全面的分析，以验证这两个好处。从经验上讲，我们表明，当MaskClip应用于各种具有挑战性的下游任务时，可以在线性探测，填充和零拍摄中取得卓越的结果，并在语言编码器的指导下取得了卓越的结果。

translated by 谷歌翻译

HTML版本

A Compacted Structure for Cross-domain learning on Monocular Depth and Flow Estimation

Yu Chen , Xu Cao , Xiaoyi Lin , Baoru Huang , Xiao-Yun Zhou , Jian-Qing Zheng , Guang-Zhong Yang

分类：计算机视觉

2022-08-25

准确的运动和深度恢复对于包括自动驾驶在内的许多机器人视觉任务很重要。以前的大多数研究都通过预定义的损失函数或跨域预测实现了合作的多任务相互作用。本文提出了一种多任务方案，该方案通过我们的流动深度（F2D），深度流动（D2F）和指数移动平均值（EMA）来实现相互帮助。 F2D和D2F机制可以基于可区分的浅网，可以在光流和深度域之间进行多尺度信息集成。双头机制用于基于分裂方式的刚性和非刚性运动来预测光流，从而显着改善了光流估计的性能。此外，为了使预测更加稳健和稳定，EMA用于我们的多任务培训。 KITTI数据集的实验结果表明，我们的多任务方案优于其他多任务方案，并为预测结果提供了明显的改进。

translated by 谷歌翻译